Cours 6 : Utilisation d’informations auxiliaires par calage sur marges

Paul Géhin

24 avr. 2026

Constat sur l’utilisation d’informations auxiliaires

  • On distingue deux types d’informations :
    • \(\{y_k\}\), les variables d’intérêt : elles sont connues uniquement sur l’échantillon \(s\).
    • \(\{\textbf{x}_k\}\), les variables auxiliaires : elles sont connues pour tous les individus de la population.
  • Le choix d’un plan de sondage sans utilisation d’informations auxiliaires peut conduire à des estimations peu efficaces :
    • La variance de l’estimateur du total d’Horvitz-Thompson peut être grande.
  • Lorsque les probabilités d’inclusion sont liées à la variable d’intérêt alors la variance de l’estimateur du total d’Horvitz-Thompson est plus faible (l’intuition est donné dans le cas d’un plan de taille fixe par la formule de Sen-Yates-Grundy).
  • Comment incorporer l’information auxiliaire ?
    • En amont du tirage : stratification, tirage équilibré, …
    • En aval du tirage : estimation assistée par le modèle, calage …

Probabilité d’inclusion d’ordre 1 et poids

  • Nous avons vu qu’il était possible d’estimer le total \(\displaystyle t_y = \sum_{k \in \mathcal{U}} y_k\) en utilisant l’estimateur d’Horvitz-Thompson du total \(\displaystyle \hat{t}_{y,\text{HT}} = \sum_{k \in S} \frac{y_k}{\pi_k} = \sum_{k \in S} \color{blue}{\frac{1}{\pi_k}} \color{red}{y_k}\)
  • L’estimateur d’Horvitz-Thompson est donc une somme des observations sur l’échantillon des valeurs d’intérêt \((y_k)\) pondérée par \(\frac{1}{\pi_k}\).
  • Le terme \(d_k = \frac{1}{\pi_k}\) est le poids de sondage (initial) de l’individu \(k\).
  • Une interprétation possible des poids de sondage : l’individu représentera \(d_k\) individus;
  • Exemple :
Probabilité d’inclusion d’ordre un et poids pour un SRS de taille 4 parmi 12.
Individus \(k\) Isaac Antoine Alice Amira Hugo Laurent Manu Manon Raymond Billel Jean Jeanne
Probabilité \(\pi_k\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\) \(\frac{4}{12}\)
Poids initial \(d_k\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\) \(3\)

Utilisation d’informations auxiliaires en amont : stratification

  • La stratification permet de prendre en compte de l’information auxiliaire afin de diminuer la variance des estimateurs.
  • Cette information est prise en compte au moment de la conception du plan de sondage.
  • Plus le lien entre la stratification (ensemble des strates) et la variable d’intérêt est fort, plus les gains seront importants.
    • Exemple TP 3 : variable CSP permet des gains sur l’estimation de la fréquentation en théâtre
  • S’il n’y a pas de lien, pas de gain.
    • Exemple TP 3 : l’estimateur stratifié par département donné les mêmes résultats que l’estimateur non stratifié en terme de variance.

Problème 1 : non disponibilité des informations auxiliaires au moment de la conception du plan de sondage

  • La création des strates et la définition de l’allocation se font en amont du tirage :
    • L’information auxiliaire doit être disponible avant le tirage.
  • Néanmoins, souvent quelques mois (… années) avant la réalisation
  • Certaines variables auxiliaires non disponibles au moment de la conception du plan de sondage peuvent être disponibles quand la collecte est finie.
  • Comment utiliser ces informations auxiliaires supplémentaires ?

Problème 2 : Cohérence dans la diffusion

  • L’utilisation d’enquêtes peut conduire à des soucis de cohérence au niveau de la diffusion.
  • Illustration à l’aide d’un exemple (dont les données sont disponibles ) :
    • Population de 350 communes pour un total de 194 387 habitants.
    • SRS de taille 100 communes parmi les 350.
    • On s’intéresse au nombre d’individus se définissant comme être humain dans chaque commune.
      • Quasiment tout le monde.
  • L’estimateur de d’Hovitz-Thompson est sans biais ici et une réalisation donne 201 012 habitants se définissant comme être humain.

Problème de cohérence important :

  • Nous avons \(\displaystyle \sum_{k \in S} d_k{y_k} = \hat{t}_{x, HT} \neq t_{x} = \sum_{k \in \mathcal{U}} y_k\)

Problème ?

  • On estime plus d’habitants se définissant comme être humain que d’individus dans les 350 communes …

Solution : le calage sur marges

  • La calage sur une marge est la solution aux deux problèmes présentés.
  • La calage permet de :
    • prendre en compte de l’information auxiliaire au moment de l’estimation
      • potentiellement, de diminuer la variance des estimateurs.
    • rendre les estimations cohérentes.
  • Le calage consiste à modifier les poids initiaux \(d_k = \frac{1}{\pi_k}\) en poids calés \(w_k\) de manière à respecter la cohérence des estimations \(\displaystyle \sum_{k \in S} w_k{y_k} = \hat{t}_{x, \text{cal}} = t_{x} = \sum_{k \in \mathcal{U}} y_k\).

Tirage dans chaque strate

Comparaison entre poids initial \(d_k\) et poids calé \(w_k\)

  • Si les poids avant calage \(d_k\) et après calage \(w_k\) sont proches, alors \(\frac{w_k}{d_k}\) sera proche de 1.
  • Si le poids avant calage \(d_k\) est beaucoup plus grand (resp petit) que le poids après calage \(w_k\), alors alors \(\frac{w_k}{d_k}\) sera proche de 0 (resp \(\infty\)).
  • Donc les poids seront d’autant plus modifiés que \(\frac{w_k}{d_k}\) s’éloigne de \(1\).
    • Quantifier la modification du poids de l’individu \(k \to\) quantifier l’écart entre \(\frac{w_k}{d_k}\) et \(1\).
  • \(\frac{w_k}{d_k}\) est appelé facteur de calage.

Formalisation du calage

  • Imaginons qu’on considère une fonction \(G\) permettant de quantifier l’écart entre \(\frac{w_k}{d_k}\) et \(1\).
  • Le calage consiste à chercher les poids calés \(w_k\) permettant de respecter la cohérence de diffusion en s’éloignant le moins possible des poids initiaux.
  • Ce problème peut être résumé par le programme d’optimisation suivant :

\[\underset{(w_1, ..., w_n) \in \mathbb{R}^n}{\operatorname{argmin}} \sum_{k \in S} d_k G(\frac{w_k}{d_k}) \text{ sous contrainte que } t_x = \sum_{k \in S} w_k x_k\]

  • Rappel : \(\displaystyle t_x = \sum_{k \in \mathcal{U}} x_k\) est connu car \(x_k\) est connu pour tout individu \(k \in \mathcal{U} \to\) information auxiliaire. Ce total est appelé marges.
  • L’estimateur \(\displaystyle \hat{t}_{y,\text{cal}} = \sum_{k \in s} w_k y_k\) est appelé estimateur calé (sur les variables \(x\)) du total \(y\).
  • Les poids calés sont fonction de l’échantillon par l’intermédiaire du programme d’optimisation : on devrait écrire \(w_k(S)\) plutôt que \(w_k\).

Fonction de pseudo-distances

  • \(G\) permet de quantifier l’écart entre \(\frac{w_k}{d_k}\) et \(1\).
  • Quelle forme pour \(G\) ?

    • \(G\) correspond à une distance entre \(\frac{w_k}{d_k}\) et \(1\) \(\to\) positive.
    • \(G\) doit être nulle quand les poids calés et les poids initiaux sont les mêmes (\(\frac{w_k}{d_k}\) = 1) \(\to G(1) = 0\).
    • \(G\) a des bonnes propriétés pour l’optimisation \(\to\) convexe et dérivable.
  • Les fonctions \(G\) répondant à ces critères sont appelées fonction de pseudo-distances (on retrouve ces fonctions sous le nom de \(f\)-divergence dans la littérature hors sondage).
Méthode Linéaire Exponentielle
Pseudo distance \(g(x) = \frac{1}{2}(x - 1)^2\) \(g(x) = x\log(x) - r + 1\)
Fonction dérivée de la réciproque \(F(u) = 1 + u\) \(F(u) = \exp(u)\)

Exemples d’application

  • Nous allons caler les poids précédents sur la variable de population totale.

  • La fonction de pseudo-distance sera la fonction du \(\khi^2\) : \[g(\frac{w_k}{d_k}) = \frac{1}{2} \left( \frac{w_k}{d_k} - 1 \right)^2\]

La fonction sampling::calib utilise :

  • les variables auxiliaires par individu.
  • le poids de sondage initial (pour l’estimateur d’Horvitz-Thompson).
  • le total des variables auxiliaires
  • la méthode de calage.

Cette fonction retourne un vecteur \((g_1, ..., g_n)\)\(g_k = \frac{w_k}{d_k}\).

Afin d’obtenir l’estimation associée à l’estimateur calé :

  • il faut calculer les poids calés en multipliant la sortie de la fonction calib par le poids initial.
  • calculer \(\sum_{k \in s} w_k y_k\).

Comparaison des méthodes de calage

  • Le choix de la fonction de distance a une incidence sur les poids calés obtenues :

    • La méthode linéaire permet de toujours converger (s’il n’y a pas de variables linéaires liées).
      • Cependant, cette méthode peut conduire à des poids négatifs.
    • La méthode exponentielle permet d’obtenir des poids positifs.
      • Cependant, les poids peuvent être très grands (conduisant à une forte variance) ou l’algorithme peut ne pas converger.
    • Les méthodes bornées permettent de contrôler les facteurs de calage mais ne convergent pas systématiquement.
  • Cependant, comme nous verrons plus tard, asymptotiquement la variance de l’estimateur calé est la même pour tous les individus.

Cas particulier

Choix pratiques

  • Il est recommandé de choisir des variables de calage liées à la variable d’intérêt afin de diminuer la variance des estimations.
  • Il est déconseillé d’utiliser plusieurs variables de calage très corrélées.
  • Il est conseillé d’éviter de mettre un nombre excessif de variables de calage.
  • Pour les méthodes bornées, en cas de non-convergence, il est conseillé de relaxer les bornes.
  • Il faut que les marges soient cohérentes entre elles.

Biais et estimation de la variance

  • Attention : comme \(w_k(S)\) est fonction de l’échantillon, on ne peut plus utiliser la linéarité de l’opérateur d’espérance pour calculer l’éventuel biais. Cependant, l’estimateur calé est approximativement sans biais.

  • Comme indiqué, la variance asymptotique de l’estimateur calé est indépendant de la méthode utilisée.

  • La variance asymptotique est approximativement celle de l’estimateur d’Horvitz-Thompson des résidus \(\hat{\varepsilon}_k\) de la régression linéaire de la variable d’intérêt \(y_k\) sur les variables auxiliaires \(x_k\).

  • Ces résidus sont calculables en utilisant la fonction calibev du package gustave.


library("data.table")
library("sampling")

ech <- fread("https://sondages.cours.gehin.net/Cours/Cours%206/data/ech.csv", dec = ",")
HTestimator(ech$humain, ech$prob_inclu)
tot <- 194387
n <- nrow(ech)
N <- 350
g <- calib(ech$pop, d=1/ech$prob_inclu, tot , method = "linear")
tot_cal <- crossprod(g/ech$prob_inclu, ech$pop)

#Calcul de la matrice des pikl du SRS(n,N)
pikl <- matrix((n*(n-1))/(N*(N-1)), n, n)
diag(pikl) <- n/N

#Calcul de la variance
calibev(ech$humain,ech$pop,tot, pikl,
1/ech$prob_inclu, g, with = TRUE)